DTop-p MoE: Control dinámico de esparcidad en preentrenamiento de modelos
Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.